Thinks Stats 探索的データ解析
データと実際に使える手法があれば、不確実な状況下で疑問に答え、意思決定をガイドできる 例
第一子の出産は、予定日よりも送れることが多いか
ぐぐると色々意見がある
主張を裏付けるデータはある
説得力ある証拠が必要
以下の点で、事例証拠はだめ
標本が小さすぎる
自分が支持する例を提供してしまう
不正確さ
統計的なアプローチ
データ収集
データの特性を完結に示すような統計値を求め、可視化のための様々な方法を評価
対象としている問題に対して、有用なデータのパターンや差やその他の特徴を探す
データの一貫性や限界についてもチェック
推定
標本から得られたデータを使用して、母集団の特徴を推定する
仮説検定
2つの母集団間での差といった降下が見られた時、その効果が偶然に生じたものでないかどうかを評価
サイクル6のデータを扱う
2002/1 - 2003/3のデータ
母集団のどのメンバーも調査対象となる機会が均等であるべき
難しいが、調査を実施する人はこれを達成しようとしている
NSFGは代表的でない
ラテンアメリカ系アメリカ人(ヒスパニック)
アフリカ系アメリカ人
10代の若者
3集団を、人口割合より多く採用している
集団の回答者数を、統計上有効な水系を導き出せるだけの十分な人数にするため
つまりそのまま同じ比率で集計すると数が少ないということだろうmiyamonz.icon
AllenDowney/ThinkStats2
$ cd code && python nsfg.py
code にcdしないと無理だった どうして
指示通りAll tests passedとはなった
何やってんだこれ
ここでいう変数、統計でいう変数とプログラムの変数とでややこしい
生データではなく、生データを用いて算出された値
特別な理由がない限りは、使える限り再符号化されたデータを使う
データクリーニング data cleaning
これって前処理のこと?miyamonz.icon
CleamFemPreg
agepregのscale変換
数値符号に注意
97が not ascertained (未確認)
みたいなやつを97として扱わない
97ポンドの赤ちゃんにしないように
ちゃんとnanにする
IEEE標準では引数にnanがあればnanを返す
pandasはnanをちゃんとnanとして扱う
pandasの絡む追加はdotでは無理で、辞書構文を使う
検証
基本統計量を計算して、公表値と比較
明らかにおかしい値をnanにしたりとかする